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Abstract 

This note proposes a new methodology for function classification with Support Vector Machine (SVM). Rather 
tlian relying on projection on a truncated Hilbert basis as in our previous work, we use an implicit spline inter- 
polation that allows us to compute SVM on the derivatives of the studied functions. To that end, we propose a 
kernel defined directly on the discretizations of the observed functions. We show that this method is universally 
consistent. 

Résumé 

Nous proposons dans cette note une nouvelle méthode de discrimination de données fonctionnelles par Support 
Vector Machine (SVM). Dans nos travaux antérieurs, nous nous appuyions sur une projection sur une base 
hilbertienne tronquée ; nous proposons ici d'utiliser une interpolation spline implicite, afin de pouvoir construire 
un SVM sur les dérivées des fonctions initiales. Pour cela, nous construisons un noyau qui s'applique directement 
sur les discrétisations des observations. Nous montrons la consistance universelle d'une telle approche. 



Abridged English version We emphasize in [6] the interest of using classical SVM [9] on the derivatives 
of the original functions for some kind of data sets (near infra-red spectrometric curves for example). We 
propose here a practical and consistent methodology for using SVM for binary classifications when the 
régresser is a smooth function. 

Let {X,Y) be a pair of random variables where X takes its values in the Sobolev space H'"([0, 1]) — 
{h e L2([0, 1]) : V j = 1, . . . , m, h cxists (in a weak sensé) and D^h G L^{[0, 1])} and Y G {-1, 1}. 
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We are given n observations of this random pair, (xi,yi), . . . , (a;„, furthermore, the Xi {i = 1, . . . ,n) 

are not completly known as we are only given a discretization of them: = {xi{ti), . . . , Xi{td))'^ ■ 

The main point of this note is to represent the observations of X by a L-spline interpolation for which 
the derivatives are implicitly calculated through the discretization. This L-sphne interpolation minimizes a 
penalty defined by a differential operator L = -D'"+X]j=o^ ajD^ . This operator allows us to décompose the 
space H™ as H™ = Hq ® Hi where Ho = KerL is a m-dimensional Hilbert space and Hi is a rcproducing 
kernel Hilbert space (RKHS) with kernel K. Tii is defined by m boundary conditions (for ail h € Tii 
and ail j = 1, . . . ,m, B^h = 0) and the inner product: for ail u, v G Tii, {u,v)i = Jj^ Lu(t)Lv{t)dt 
(see [2] or [1] for further informations about RKHS). On the space Hi, the L-spline représentation of a 
discretization is given by the following theorem: 

Theorem 1 ( [2] ) Let x G Tii he a function known at ti , . . . , . We assume that the matrix = 
{K(ti,tj))i^j=i^___^d is positive definite. Then, there exists a unique interpolation function h G Hi at 
ti,. . . ,td, such that < ||w||i for any interpolation function u ÇlHi. h is given by: h = X^iLi CiK{ti, .), 
where c = K^"'"x and x = {x(ti), . . . ,x{t(i)Y' . 

Moreover, if hi and /12 are the respective interpolation functions of xi and xi G Jix defined as above 
then, {hi, ^12)1 = K^^X2 = (xi, X2)(]jd k-^)' ''^^here {W^, K^^) is with the inner product induced by 

the matrix K^^. 

Let then, for ali i = 1, . . . ,n, hi bc the L-spline interpolating the observation Xi at ti, . . . , td- Provided 
that Krf = {K{ti,tj))ij=i^,,,^d is positive definite, we can construct a SVM on (/iï)i=i,...,n through the 
discretizations {'X-i)i=i,...,n' 

Theorem 2 Let be the gaussian kernel with parameter 7 on and the gaussian kernel with 
parameter j on L^([0, 1]) (G^{u,v) = e"'''"""""»'* «'•i^^. Then, a SVM on the derivatives ofh\,...,hn 
(denoted 'fh'^ ) defined by 

n n 

max aj — onajG'^{Lhi,Lhj) 

i—l îj = l 

n 

with aiyi = 0, < ai < C, 1 < i < n, 

i=l 

is équivalent to a SVM on the discretizations xi, . . . ,x„ (denoted (j)^''^) : 

n n 

max - Oia^G^J o K^^/^(xj,Xj) 

n 

with aiyi = 0, < ai <C, 1 <i <n. 

i=l 

Finally, we obtain a consistency resuit for this model: 
Theorem 3 Under the assum,ptions 

(Al) X is a bounded random variable taking its values in Hi, 

(A2) {Td)d is a séquence of discretization points in [0, 1] such that, for ail d > 1, Td = {tk}k=i,...,d, the 

matrix is definite positive and Span{K{t, .), t G Ud>iTd} is dense in Tii, 
(A3) (C^)„ is a séquence such that = 0{n^~l^'^) for a Q < (3d < l/d, 

The séquence of SVM classifiers (j)'^''^ defined as in Theorem 1, with C = (C^)n) is universally consistant 
in W^, that is: 

lim lim Err(f)?''^ = Err* 

where Err* is the Bayes error, inf^.-^j_>{_i ly F{(j){X) ^ Y), and Errcj) is the error of a classifier <j), 
P(0(X) ^Y). 
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1. Introduction 



Nous nous intéressons ici à l'utilisation des SVM pour le traitement de données fonctionnelles. De 
manière plus précise, il s'agit de résoudre des problèmes de discrimination binaire pour lesquels la va- 
riable explicative est fonctionnelle. Nous montrons dans [6] l'intérêt pratique, pour certains types de 
données, d'utiliser des SVM (Support Vector Machine, voir [9]) sur les dérivées des fonctions initiales; 
nous proposons, dans cette note, une méthodologie permettant de mettre en œuvre un tel traitement et 
démontrons un résultat de consistance universel associé à celle-ci. 

Pour cela, nous étudions un couple de variables aléatoires {X, Y) où X est supposée « régulière » et 
prend ses valeurs dans l'espace de Sobolev W"([0, 1]) = {h € L"^ {[0,1]) : Vj = l,...,m, D^h existe 
(au sens faible) et D^Tî, e _L^([0, 1])} et Y G {—1,1}. Ce couple est connu grâce à n observations, 
{xi,yi), . . . , {x„, Un) ; en fait, les Xj (i = 1, . . . , n) ne sont pas connues de manière exacte mais simplement 
au travers d'une discrétisation Xj = {xi{ti), . . . , Xi{td))'^ (les points de discrétisation sont les mêmes pour 
tous les Xi et sont déterministes). Le problème est alors de construire, à partir de ces données, un clas- 
sifieur capable de prédire Y connaissant X. En tirant partie de la structure d'espace de Hilbert à noyau 
reproduisant (RKHS) de W"([0, 1]), les observations de X seront représentées par une interpolation spline 
sur laquelle les dérivées s'expriment de manière naturelle en fonction de la discrétisation. 



2. Interpolation L-Spline 

On choisit de représenter les observations de W"([0, 1]) à travers une interpolation L-spline : celle-ci 
interpole exactement la fonction aux points de discrétisation tout en minimisant une pénalité définie 
à partir d'un opérateur différentiel L = + ^^J^q' dj ■ On peut montrer que, si le noyau de cet 
opérateur, KerL = Ho est un sous-espace de dimension m de W", on peut écrire = Ho (î) Hi où 
Hi est un sous-espace vectoriel de défini par m conditions aux bornes, V/i G Hi et Vj — 1, . . . ,m, 
B^h = 0, et muni du produit scalaire \/u,v e H\, {u,v)i = {Lu,Lv)l2 = Lu{t)Lv{t) dt (voir, par 
exemple, [2] ou [1]). Hq et Hi sont deux espaces de Hilbert à noyau reproduisant et on note K le noyau 
reproduisant de Hi ; on donne, dans [10], des exemples de décompositions de ?i™ et on explique, sur ces 
exemples, comment calculer K. 

Cette décomposition permet de définir simplement le produit scalaire entre les représentations des 
fonctions à partir des discrétisations initiales : 

Théorème 2.1 ([2]) Soit x S Hi une fonction connue aux points de discrétisation ti, . . . ,td. Supposons, 
en outre, que la matrice = {K{ti,tj))ij soit définie positive. Alors, il existe une unique fonction 
d'interpolation h & Hi aux points t\,...,td telle que \\h\\\ < \\u\\\ pour toute fonction d'interpolation 
u €Hi. h est donnée par : 

d 

h = Y^ c,K{ti, .) 

où c = K^-^x avec x = {x{ti), . . . , x{td))'^ ■ 

De plus, si hi et /12 sont les deux fonctions d'interpolation de xi et X2 G Hi comme définies ci-dessus, 
alors 

(/ll,/l2)l =xfK^^X2 = (xi,X2)(K<i,K-i) (1) 

OÙ (R'^.K^^) est l'espace R'^ muni du produit scalaire induit par la matrice K^"^. 

La fonction d'interpolation spline est donc simplement h = 7^vcct{if(tfc,.), k=i,...,d}i^)^ 
l'opérateur de projection orthogonale sur V dans Hi, ce qui rapproche la méthodologie proposée ici 
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de celle développée dans [6] et inspirée des travaiix de [3]. Ceci permet de déterminer la perte d'infor- 
mation induite par l'interpolation, notamment en terme de perturbation de l'erreur de Bayes, comme le 
montre le résultat suivant : 
Lemme 2.2 Soient 

(Hl) X une variable aléatoire à valeurs dans Tii ; 

(H2) (rc;)d>i une suite de points de discrétisation de [0, 1] telle que Vd > 1, = {tk}k=i,...,d, la matrice 

Kd = {K{ti,tj))ij=i^...^d est inversible etYect{K{t,.), t G Ud>iTd} est dense dans Hi. 
On note Va = Vect {K{t, .), t £ r^} et Vd{x) = Vv^ix). On a alors 

lim Errd = Err* (2) 

avec Err^ = inf^.v-^^{_i^i} P(<j!)('Pd(X)) ^ Y) (erreur de Bayes de la représentation L-spline), et Err* 

est l'erreur de Bayes donnée par : inf^.->^j^{_i_ij P((/)(X) =^ Y). 

Démonstration : Les Vect {K{t, .), t G r^} {d > 1) sont des ensembles emboîtés et, par densité. Va; G Hi, 
limd^_i_oo Vdix) = X dans Hi. 

Par ailleurs, les cr-algèbrcs a-{VdiX)) = a{K.'^^{X{ti), . . . ,X{td))'^) forment clairement imc filtration. 
Comme E(|i^|) < 1, E(Y\Vd{X)) est une martingale uniformément intégrable pour cette filtration (cf 
[5] lemme 35 page 154), cette martingale converge en norme vers M{Y\a{L\da-{'Pd{X)))) (cf théorème 
36 page 154 de [5]), dont la valeur est E(F|X) (puisque Vd{X) est fonction de X, a{\JdO'{Vd{X))) C 
(t{X) et, inversement, X est c7(U(iCT(7^d(X)))-mesurable comme limite des variables aléatoires {Vd{X))d, 
a{Ud<T{'Pd (X) ) )-mesurables) . 

Nous concluons en utilisant l'inégalité classique Err"^ - Err* < 2E|E(F|Pd(X)) - E(F|X)| (cf e.g. [4], 
théorème 2.2). □ 



3. SVM sur dérivées 

Notons, Vi = l,...,n, hi la spline d'interpolation de l'observation Xi aux points de discrétisation 
ti,...,td définie comme dans le Théorème 2.1. Alors, si la matrice = {K{ti, fj))i,j=i,...,d est inversible, 
on peut définir un SVM sur les dérivées des L-splines d'interpolation par le théorème suivant : 
Théorème 3.1 Soit le noyau gaussien de paramètre 7 swr M'' et G?^ le noyau gaussien de paramètre 

7 sur L^([0, 1]) (Gj{u,v) = e~'''""~^"B'* <»• i-^/ Alors, le SVM sur les dérivées des fonctions /ii,...,/i„ 
(noté ) défini par 

n n 

max aj - ^ aiUjG^ {Lhi, Lhj) 

n 

avec aiyi = 0, < < C, 1 < i < n, 

est équivalent au SVM sur les discrétisations xi, . . . ,x„ (noté (j)^''^) : 

n n 

max Qfj - ^ 0!iO!jG^ o K^^/^(xi,Xj) 

n 

avec Uiyi = 0, < a, < C, 1 < i < n. 

i=l 

Démonstration : Il suffit de constater, d'après (1), que Vi, j = 1, . . . , n, G^{Lhi, Lhj) = e~'^^^^'''~^^^^^l^ = 
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Or, [8] démontre la consistance universelle des SVM d-dimensionnels. Ainsi, à suite de discrétisation 

fixée ti, . . . ,td, on peut démontrer la consistance universelle des SVM çi^''^ vers l'erreur de Bayes de la 
représentation L-spline ; ainsi, à discrétisation fixée, (j)^'''' est asymptotiquement optimal : 
Lemme 3.2 Soit ti,. . . ,td des points de discrétisation tels que = {K{ti,tj))ij=i^,,,^d est inversible. 
Supposons que 

(H3) (C^)„ est une suite telle que = 0{n^-^'') pour < Pd < ^/d; 
(H4) X est une variable aléatoire bornée dans TLi. 

Alors, le SVMcf)^'''' défini comme dans le Théorème 3.1, avec pour paramètre C = C^, est universellement 
consistant dans M** ; 

lim Err4>l''^ = Err*d (3) 

n— >+cx> 

pour Errcj) = ^{(t){X) ^ Y). 

Démonstration : On note X = . . . ,X{tfi)Y' ■ Par le Théorème 3.1, Errcf/^''^ = Errcj)^''^ et, pifisque 

Kd est inversible, inf^,R.^{_i,ij P(0(X) ^ F) = mî^.,v,^{_i,i}V{(p{Pd{X)) ^Y)= Err^. Or, d'après 
[8] , les SVM dans M"^ sont universellement consistants ; pour cela, on doit vérifier : 

1. la variable aléatoire explicative prend ses valeurs dans im compact de K*^ : comme X prend ses valeurs 
dans un borné de Wi, X prend ses valeurs dans un borné de M**, c'est-à-dire, un compact de M**, noté 

2. le noyau utilisé doit être universel : Steinwart montre dans [7] que le noyau gaussien d-dimensionnel 
est universel. Il montre aussi que tout noyau obtenu en composant une fonction continue et injective 

— 1/2 

avec un noyau universel est lui aussi universel. Or, est continue et injective, et donc le noyau 

o K^^^^ est universel : l'ensemble des fonctions de la forme o K^"^^^(.), w)x {w € X) est dense 
dans l'ensemble des fonctions continues sur un compact de R"^ (oiî X désigne le RKHS associé au 
noyau G^oK-'/'); 

3. on doit contrôler le nombre de couverture //{G^ o K^^^^, e), c'est-à-dire le nombre minimal de boules 
de rayon e (au sens de la métrique de définie par le noyau G^ o K^^^^) nécessaires pour recouvrir 
U le support compact de X. Or, on montre aisément que A/'(GîJ o K^^^^, e) < M{Gii, e), puis on utilise 
[8] pour obtenir A/'(G^, e) = ©«(e"'') et donc AA(G^ o K;^/^ e) = Onie"^) ; 

4. la suite (G^)„ est bien de la forme requise {0{n^~^'^) avec < /3d < l/d). 

On conclut donc, par le Théorème 2 de [8], que Errcf)^'^ = Errcj)^''^ n^+œ^ inf^.R<i^{_i i}P((/)(X) ^ 
Y) = Errl.U 



4. Consistance 

L'utilisation de noyaux définis comme dans le Théorème 3.1 sous les hypothèses formulées dans les 
lemmes 2.2 et 3.2 conduit à des SVM universellement consistants (double limite lorsque le nombre de 
points de discrétisation tend vers l'infini et le nombre d'observations tend vers l'infini) : 
Théorème 4.1 Sous les hypothèses (H1)-(H4), le SVM défini comme dans le Théorème 3.1, 4'^"'^, pour 
les points d'interpolation {Td)d>i et lo, suite G = (G^)„ est universellement consistant dans Hi : 

lim lim Errcj/^''^ = Err* . 

d->+cx> n->+oo 
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Démonstration : On écrit Err(l)l''^ - Err* = {Errcj)};'^ - Err*^) + {Err*^ - Err*). Soit alors e > 0. Par le 
Lemme 2.2, il existe > : Vd > Dq, Err*^ - Err* < e. Soit alors d> Dq; par le Lemme 3.2, 3No > : 
Vn > Nq, {Errcp^'''' — Err^) < e, ce qui conclut la preuve. □ 

Remarque 1 La discrétisation des fonctions est en général induite par le problème. Si r est une 

discrétisation donnée, on peAit supposer, quitte à retirer quelques points, que la matrice {K{t,t'))t,t'eT 
est inversible. Il existe alors une suite de points de discrétisation telle que r = ri et qui vérifie l'hypothèse 
(H2) .• 

Proposition 4.2 Si r est un ensemble fini de points de [0, 1] tels que {K{t,t'))t,t'eT est inversible alors, 
il existe un ensemble dénombrable T>o = {tk)k>i C [0, 1] tel que 

- TCVo; 

- Vcct {K{t, .), t 6 Vq} est dense dans 7ii ; 

- pour tout d>l, la matrice (if (^i, tj))i,j=i,...,(i est inversible. 

Démonstration : Par le Théorème 15 de [1], l'espace de Hilbert Hi est séparable (comme ensemble de 
fonctions continues) des que m > 1. Or, {K{t, t'))t,i'eT est inversible est équivalent au fait que {K{t, .), t G 
r} est une famille de fonctions linéairement indépendantes. Ainsi, par le Théorème 8 de [1], il existe un 
support dénombrable de H contenant r, c'est-à-dire, un ensemble dénombrable Vq tel que t C Vq, les 
{K{t, .), t s "Dq} sont linéairement indépendants et Vect {K{t, .), t G Dq} est dense dans Tïi.n 
Remarque 2 En pratique, la matrice {K(t,t'))t,t'eT est souvent mal conditionnée dès que le cardinal de 
T est élevé. Ainsi, il sera donc préférable d'introduire un paramètre de régularisation (splines de lissage) 
afin de permettre l'inversion de celle-ci. 
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